(Day 22) 深度學習中的正規化與正則化 (Regularization in Deep Learning)

2025 iThome 鐵人賽

DAY 22

AI & Data

30 天入門常見的機器學習演算法系列第 22 篇

17th鐵人賽

Alan Hsieh

2025-08-22 00:02:19

142 瀏覽

分享至

在前幾天的文章裡，我們已經從線性迴歸、邏輯迴歸一路走到 CNN (卷積神經網路)，逐步體驗了機器學習與深度學習的不同。到了深度學習階段，模型的複雜度往往大幅增加，參數數量動輒上百萬甚至上億，這也帶來了一個非常嚴重的問題: 過擬合 (Overfitting)。

今天我們要談的主題「正規化 (Normalization) 與正則化 (Regularization)」，就是專門為了解決這類問題而設計的工具。這兩個詞在中文裡常常被混淆，但在深度學習中有明確的區分:

正規化 (Normalization): 處理資料或中間層輸出的「分布」，讓訓練更穩定。
正則化 (Regularization): 在模型學習過程中「限制參數自由度」，避免過度擬合。

可以把它們理解成:

正規化是「讓訓練跑得順暢」
正則化是「讓模型不要學壞」

為什麼需要正規化與正則化?

深度學習的挑戰主要來自於以下幾點:

參數數量龐大
- FCNN、CNN、RNN 等模型的參數動輒上百萬，模型表達能力非常強。這雖然能學習複雜模式，但也極容易記住「訓練資料」而不是「一般化規律」。
梯度傳遞問題
- 深層網路容易遇到梯度消失或爆炸，導致學習不穩定。
- 即便是設計良好的激活函數 (如 ReLU)，也可能因資料分布不均而造成某些神經元失效。
資料有限
- 真實世界中，資料集往往有限，無法支撐一個龐大模型完全「正確」學習。若沒有適當限制，模型就會死記硬背訓練資料，導致測試集表現不佳。

為了應對這些問題，正規化與正則化技術被廣泛應用在深度學習的訓練流程中。

正規化 (Normalization)

正規化的核心目標是: 讓輸入資料或中間層輸出的數值保持在合理範圍內，以便模型更容易學習。在模型訓練前，我們通常會對輸入資料進行縮放，例如:

Min-Max Scaling
Z-score Standardization

正則化 (Regularization)

正則化的核心目標是：避免模型過擬合，提升泛化能力。

L1 與 L2 正則化
Dropout

正規化與正則化的互補關係

雖然名稱相似，但正規化與正則化針對的問題不同:

正規化 → 解決訓練穩定性、加速收斂
正則化 → 解決過擬合、提升泛化

在實務上，它們通常是同時使用的。例如:

CNN: 資料正規化 + Batch Normalization + Dropout + Weight Decay
RNN/Transformer: Layer Normalization + Early Stopping + Data Augmentation

結語

深度學習之所以能夠在近十年迅速崛起，不只是因為 GPU 算力提升或資料量增大，還有賴於一系列正規化與正則化技術的發展，讓深度模型可以被穩定地訓練並具備良好的泛化能力。

可以這樣理解:

沒有正規化，模型可能訓練不起來
沒有正則化，模型可能學壞掉

在進入 RNN、LSTM、Transformer 之前，理解這些基礎的訓練技巧，能讓我們更清楚地看到深度學習從「能跑」到「能用」的過程。

(Day 21) 卷積神經網絡 (Convolutional Neural Network)

(Day 23) 深度學習中的優化方法 (Optimization in Deep Learning)

系列文

30 天入門常見的機器學習演算法共 30 篇

RSS系列文訂閱系列文

15 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19810 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

30 天入門常見的機器學習演算法系列 第 22 篇